第 11 章  ·  什么是真正的Agent

第11章 第1节 什么是真正的Agent


第11章 第1节 什么是真正的Agent

阅读指南

在之前LangChain章节中,我们提到过Agent——智能体。但我们并没有深入讨论这个话题。这一节,而是回到一条基础的问题线上:


1.1 从聊天机器人到智能体的认知跃迁

先用一个具体的对比,帮你把脑子里的两个形象区分开来。

"会聊天的模型":增强版搜索引擎

大多数人第一次接触 ChatGPT 时,直觉上会把它理解成一个“超强的问答机器人”,它的典型特征是:

这种形态,本质上还是一个“超级回答机”。

"能自己干事的 Agent":从回答到"达成目标"

想象这样一个场景:

你跟一个旅行助手说:“帮我规划下周去东京的 3 日行程,要求控制预算,帮我订好机票和酒店,并把行程同步到日历里。”
然后你关掉聊天窗口,去忙别的事。
几个小时后,它给你发来一封总结邮件:机票已订、酒店已订、日历已更新、还顺手帮你查了天气并调整了行程。

在这个故事里,这个“旅行助手”明显不再只是一个“问一句答一句”的聊天机器人,而更像一个“可以托付任务的智能助理”:

这里的核心区别在于:
聊天机器人是“对话优先”的,Agent 是“目标优先”的。

这就是从“聊天机器人”到“智能体”的第一步认知跃迁:
从“对话产品”到“面向目标的智能决策体”。


1.2 Agent 的学术定义:从"感知—思考—行动"的循环看世界

如果从学术视角看,Agent 并不是一个新词。早在传统 AI 时代(远早于大模型),"智能体(Intelligent Agent)"就有一套相对成熟的框架。所以,我们必须有一个认识:Agent并不独属于LLM,也不是因为LLM才有了Agent。

教科书式的定义

在经典 AI 教科书里,一个常见的定义是:

Agent 是一个能够感知环境(Perception),并基于感知做出行动(Action)的实体。

这个定义听起来很抽象,我们把它拆成几个关键要素:

在这个框架下,Agent 不再被看作“一个函数调用”或“一个 API”,而是一个持续运行、不断循环的过程:

  1. 感知(Perceive):接收当前环境的状态;
  2. 决策(Decide / Think):基于目标和历史经验做出判断;
  3. 行动(Act):执行某个动作(包括对话、工具调用等);
  4. 环境变化:世界因行动而改变;
  5. 回到第 1 步,继续循环。

这个"感知—思考—行动"的循环,是理解 Agent 的核心钥匙。 你可以把它理解成一种“带反馈回路的智能循环”。

1.3 工业界的 Agent 实践:从"流程自动化"到"智能决策体"

学术界给了我们抽象框架,工业界则给了我们一个又一个落地场景。
这两者有时会有偏差:

早期的"伪 Agent"时代:规则+流程自动化

在大模型之前,“Agent”这个词就已经出现过很多次,只不过当时的实现方式主要是:

这类系统很多公司叫它:

它们确实有“感知—行动”的轮廓,但“思考”部分基本被设计成了硬编码规则。一旦场景稍微复杂一点、用户说话方式稍微多样一点,整个系统就显得非常僵硬。

大模型加持后的转折:从"语义理解"到"通用问题求解器"

当大模型引入之后,有两个关键变化:

  1. 自然语言理解能力大幅提升

早期没有LLM前,Agent最大的难题是很难理解用户的意图,因为机器本身不懂物理世界也不懂人类的语言,这种情况下我们往往会用标签、特征这些看起来比较笨的方法来让机器理解。

但有了LLM后,Agent不再需要费尽心思想各种意图标签、特征工程,系统可以直接“读懂”用户在说什么。大模型开始具备“在未知任务上也能给出合理方案”的能力——这就是我们在之前讨论过的“涌现能力”。

  1. Agent 的运行模式随之改变

在这个基础上,工业界的 Agent 实践出现了新形态:

于是,你在各种产品和论文中会看到:

它们背后的共同点是:不再把大模型当成一个"单轮问答机",而是把它放进一套"感知—思考—行动"的循环中去。

工业界的妥协与工程化现实

不过,需要特别提醒的是:工业界的 Agent,与教科书里的“理想 Agent”,之间有几层重要的工程现实:

  1. 安全与可控性优先:企业不会允许一个 Agent 随意删库、乱发邮件、乱操作生产系统。因此工业界会通过:
  2. 严格的权限控制
  3. 人类在环(Human-in-the-loop)
  4. 沙箱环境
  5. 审批流和回滚机制
    把 Agent 的行为限制在可控的“轨道”上。
  6. 可靠性与稳定性约束:纯粹依赖推理能力和“即兴发挥”的 Agent,在生产环境里很危险。 所以工程上会加入:
  7. 明确的工具调用协议
  8. 错误重试机制
  9. 退避策略和兜底流程
  10. 可观测性和日志系统
    让整个系统在出错时可诊断、可修复。
  11. 成本与收益权衡:一个“聪明但昂贵”的 Agent,往往难以大规模落地。工业界经常会做的一件事是:
  12. 把 Agent 用在“高价值 + 低频”的场景(比如复杂决策、长周期任务);
  13. 在高频、简单、可规则化的部分,仍然使用传统系统(规则引擎、工作流)。

正是这些工程上的"约束"和"妥协",让今天你在框架里看到的 Agent,是一种兼顾智能性与可控性的工程产物

1.4 Agent 的核心特征:不只是"会调用工具"

现在,我们可以尝试给出一个稍微务实、又兼顾理论的总结:
在本书里,当我们说"真正的 Agent",至少包含下面这些特征。

目标导向(Goal-oriented)

不再只是“回答问题”,而是围绕目标组织行为;同时,能够从自然语言中抽取和澄清目标:

更理想的 Agent,还能够在执行过程中不断更新或细化目标:

持续性(Persistence)

在工程上,这意味着我们需要给 Agent 设计:

可行动(Actionable)

Agent 不仅能“说”,还能,比如:

通常我们会用 Function Calling、工具调用、MCP、插件等机制,把这些动作暴露给 Agent。

可感知(Perceptive)

它能主动去获取信息,比如:

它可以对“环境变化”做出响应,比如:

这里“感知”的关键在于:Agent 不只被动等待输入,而是会主动“去看一眼世界”。

可解释与可控(Controllable & Interpretable)

一个能够在生产环境落地的 Agent,必须具备一定的可解释性和可控性:

因此现代的 Agent 系统里,会大量使用:

当一个系统同时具备目标导向、持续性、可行动、可感知、可解释与可控这些特征时,我们才有理由说:

“这不只是一个高级聊天机器人,而是一个真正意义上的 Agent。”

1.5 一个完整的例子:游戏 NPC vs LLM Agent

游戏里的 NPC(Non-Player Character,非玩家角色)是理解 Agent 的一个极好比喻。

传统 NPC:预设行为脚本

在传统游戏里,一个 NPC 的行为大概是这样被设计的:

这些行为通常用有限状态机(FSM)或行为树(Behavior Tree)实现,本质上是高度规则化的反应式 Agent

你在很多早期的单机游戏里,可能都体验过这种 NPC:

打着打着,你会开始“计算”它的 AI—— 知道它在什么时候会转身、何时会触发某种动作,甚至可以设计“卡 AI”的套路。这就是有限规则所带来的弊端,玩家完全可以根据反复的测试找到NPC的规律。

如果用 LLM 来做 NPC Agent,会有什么不同?

假设我们用大模型来驱动一个开放世界 RPG 游戏里的 NPC,比如一个“冒险者公会接待员”。
它的世界可能是这样的:

在这种设定下,这个 NPC Agent 可以做一些传统 NPC 很难做到的事情:

这个 NPC,已经非常接近我们在本书中要讨论的“真正的 Agent”:

这样的NPC Agent可以让你无论玩多少次游戏,每一次可能都是不同的体验。

游戏业界的AI NPC实践
其实现在已经有很多游戏在尝试用LLM来做真正的Agentic NPC(智能化的NPC),虽然还面临技术挑战,但已有不少成功案例:

育碧的项目允许玩家通过自然语言指挥AI队友,这些NPC能够理解战术指令并在动态战场中做出相应行动;Meta也在其Worlds平台推出了LLM驱动的NPC工具,让开发者能够快速创建具备动态对话能力的角色。

这些实践印证了本章讨论的核心观点:Agent不只是一个技术概念,而是正在各个领域落地的智能化方向。

回到现实中的 LLM Agent

你可能不会真的去做一个开放世界 RPG 的 NPC Agent,但实际工程中,我们做的很多 Agent,本质上都与这个 NPC 很像。

它们都符合同一套抽象:在一个复杂环境中,围绕目标,持续进行"感知—思考—行动"的循环。

1.6 冷知识:Qoder就是一个典型的 Agent

说了这么多抽象的概念,最后不妨用一个你每天都在使用的对象来收个尾—— 其实你现在正在使用的 Qoder,本身就是一个非常典型的智能 Agent。

如果我们用本节的框架来“解剖”一下 Qoder,你会发现几乎所有 Agent 的关键特征都在它身上:

从这些角度看,现在并不是"在用一个 AI 工具写代码",而是在和一个 Agent一起完成一个项目——这本身,就很有趣。

1.7 下节预告

现在理解了 Agent 的本质特征,但可能会好奇:Agent 并不是一夜之间出现的,它是如何从最初的"单轮对话"一步步演化成今天这样强大的智能体的?

从 ChatGPT 最初只能"聊天",到后来可以"调用工具",再到如今能够"自主规划并完成复杂任务"——这背后经历了哪些关键的技术跃迁?每一次演进又解决了什么核心问题?

下一节,将沿着 Agent 的进化时间线,完整理解从 Function Calling 到真正的自主 Agent 的演进路径。可以看到,原来今天的 Agent 能力,是一个个技术突破叠加起来的结果。


1.8 ■ 学点英语

中文 English 音标 说明
智能体 Agent /ˈeɪdʒənt/ 能够感知环境并基于感知做出行动的实体
感知 Perception /pəˈsepʃn/ Agent从环境中获取信息的过程
行动 Action /ˈækʃn/ Agent改变环境或自身状态的行为
目标导向 Goal-oriented /ɡoʊl ˈɔːrientɪd/ Agent围绕目标组织行为,而非仅仅回答问题
持续性 Persistence /pərˈsɪstəns/ Agent保持跨轮次记忆和内部状态的能力
感知-思考-行动 PTA (Perceive-Think-Act) /pɜːrˈsiːv θɪŋk ækt/ Agent运行的核心循环框架

1.9 ■ 思考帧

Skill 的实战心法:让指令真正生效 从Function Calling到Agent的演进
本节目录